Вікторія Семенко

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

COLORS = {
    1778: '#F56C78',
    1897: '#6795F2'
}

df_1897 = pd.read_csv('2.1_Дунаєць.xlsx - База людей.csv')
df_1778 = pd.read_csv("2.2_Дунаєць_1778.xlsx - База.csv", skiprows=3)

# Обрана таблиця містить дані по всьому населенню села — 
# це важливо, адже ми хочемо порівняти усю вікову структуру

df_1897['Возраст'] = df_1897['Возраст'].astype(str)

df_1897.loc[df_1897["Возраст"].str.contains('month', case=False, na=False), 'Возраст'] = '0'

df_1897['Возраст'] = pd.to_numeric(df_1897['Возраст'], errors='coerce')

df_1897 = df_1897[['Возраст', 'Пол']].dropna()
df_1897 = df_1897.rename(columns={
    'Возраст': 'Вік', 
    'Пол': 'Стать'
})

df_1897["year"] = 1897

df_1897.head()

def detect_gender(row):
    if pd.notna(row['Чоловіки.1']):
        return 'm'
    elif pd.notna(row['Жінки.1']):
        return 'f'
    else:
        return None
        
df_1778['Стать'] = df_1778.apply(detect_gender, axis=1)

df_1778['Вік'] = pd.to_numeric(df_1778['Вік'], errors='coerce')

df_1778_clean = df_1778[['Стать', 'Вік']].dropna()
df_1778_clean['year'] = 1778

df_1778_clean.head()

df_all_age = pd.concat([df_1897, df_1778_clean])
df_filtered = df_all_age[(df_all_age['Вік'] >= 0) & (df_all_age['Вік'] <= 100)]

df_1778_plot = df_filtered[df_filtered['year'] == 1778]
df_1897_plot = df_filtered[df_filtered['year'] == 1897]

bins = np.arange(0, 101, 5)

fig, axes = plt.subplots(ncols=2, figsize=(14, 5), sharey=False)

# ------ 1778 ------
axes[0].hist(df_1778_plot['Вік'], bins=bins, color=COLORS[1778], edgecolor='#FE2F41', alpha=0.6)
axes[0].set_title('Рік 1778')
axes[0].set_xlabel('Вік')
axes[0].set_ylabel('Кількість осіб')
axes[0].set_xticks(np.arange(0, 101, 10))

# ------ 1897 ------
axes[1].hist(df_1897_plot['Вік'], bins=bins, color=COLORS[1897], edgecolor='#3F7CF9', alpha=0.6)
axes[1].set_title('Рік 1897')
axes[1].set_xlabel('Вік')
axes[1].set_ylabel('Кількість осіб')
axes[1].set_xticks(np.arange(0, 101, 10))

fig.suptitle('Порівняння вікової структури села Дунаєць: 1778 vs 1897', fontsize=14)

plt.tight_layout()
plt.show()

# Створення вікових категорій:
def assign_age_group(age):
    if age < 13:
        return '0–12 (діти)'
    elif age < 19:
        return '13–18 (підлітки)'
    elif age < 60:
        return '19–59 (дорослі)'
    else:
        return '60+ (літні)'

df_groups = df_filtered.copy()
df_groups['age_group'] = df_groups['Вік'].apply(assign_age_group)

# Агрегація
group_counts = df_groups.groupby(['year', 'age_group']).size().reset_index(name='count')
group_totals = df_groups.groupby('year').size().reset_index(name='total')
group_data = pd.merge(group_counts, group_totals, on='year')

group_data['percent'] = round(
    group_data['count'] / group_data['total'] * 100, 1
)

# Сортування груп
age_order = ['0–12 (діти)', '13–18 (підлітки)', '19–59 (дорослі)', '60+ (літні)']

group_data['age_group'] = pd.Categorical(
    group_data['age_group'], 
    categories=age_order,
    ordered=True
)

group_data = group_data.sort_values(['year', 'age_group'])

years = sorted(group_data['year'].unique())
groups = ['0–12 (діти)', '13–18 (підлітки)', '19–59 (дорослі)', '60+ (літні)']

width = 0.35
x = np.arange(len(groups))

values_1778 = group_data[group_data['year'] == 1778].set_index('age_group').loc[groups]['percent']
values_1897 = group_data[group_data['year'] == 1897].set_index('age_group').loc[groups]['percent']

fig, ax = plt.subplots(figsize=(9, 5))

bar1 = ax.bar(x - width/2, values_1778, width, label='1778', color=COLORS[1778], edgecolor='grey', alpha=0.8)
bar2 = ax.bar(x + width/2, values_1897, width, label='1897', color=COLORS[1897], edgecolor='grey', alpha=0.8)

ax.set_title('Частка вікових груп населення села Дунаєць')
ax.set_xlabel('Вікова група')
ax.set_ylabel('Частка населення, %')
ax.set_xticks(x)
ax.set_xticklabels(groups)
ax.set_ylim(0, 100)
ax.legend(title='Рік')
ax.grid(axis='y', linestyle='--', alpha=0.5)

plt.tight_layout()
plt.show()

# ------ 1778 ------
df_1778 = pd.read_csv("2.2_Дунаєць_1778.xlsx - База.csv", skiprows=3)
df_1778 = df_1778[['Родиний статус', 'Вік']].dropna()
df_1778['Вік'] = pd.to_numeric(df_1778['Вік'], errors='coerce')
df_1778 = df_1778.dropna()
df_1778.columns = ['роль', 'вік']
df_1778['рік'] = 1778

# Перейменування ролей
df_1778['роль'] = df_1778['роль'].replace({'господар': 'husband'})

# ------ 1897 ------
df_1897 = pd.read_csv('2.1_Дунаєць.xlsx - База людей.csv')
df_1897 = df_1897[['Глава хозяйства и глава семьи', 'Возраст']].dropna()
df_1897['Возраст'] = pd.to_numeric(df_1897['Возраст'], errors='coerce')
df_1897 = df_1897.dropna()
df_1897.columns = ['роль', 'вік']
df_1897['рік'] = 1897

df_1897.head()

# Перейменування ролей 1897
role_mapping = {
    'господар': 'husband',
    'жена его': 'wife',
    'дочь их': 'daughter',
    'сын их': 'son',
    'husband': 'husband',
    'father': 'husband'
}

df_1778['роль'] = df_1778['роль'].replace(role_mapping)
df_1897['роль'] = df_1897['роль'].replace(role_mapping)

df_roles = pd.concat([df_1778, df_1897])
top_roles = ['wife', 'husband', 'son', 'daughter']
df_roles_filtered = df_roles[df_roles['роль'].isin(top_roles)]

mean_ages = df_roles_filtered.groupby(['рік', 'роль'])['вік'].mean().reset_index()
mean_ages_pivot = mean_ages.pivot(
    index='роль', 
    columns='рік', 
    values='вік'
).round(1).fillna(0)

mean_ages_pivot

roles = mean_ages_pivot.index.tolist()
x = np.arange(len(roles))
width = 0.35

fig, ax = plt.subplots(figsize=(10, 6))

bars_1778 = ax.bar(
    x - width/2,
    mean_ages_pivot[1778],
    width, label='1778',
    color=COLORS[1778],
    edgecolor='#89918A',
    alpha=0.8
)

bars_1897 = ax.bar(
    x + width/2,
    mean_ages_pivot[1897],
    width, label='1897',
    color=COLORS[1897],
    edgecolor='#89918A',
    alpha=0.8
)

for bar in bars_1778:
    height = bar.get_height()
    ax.text(bar.get_x() + bar.get_width()/2, height + 0.8, f'{height}', ha='center', va='bottom', fontsize=9)

for bar in bars_1897:
    height = bar.get_height()
    ax.text(bar.get_x() + bar.get_width()/2, height + 0.8, f'{height}', ha='center', va='bottom', fontsize=9)

ax.set_title('Середній вік у родинних ролях у 1778 і 1897 роках')
ax.set_xlabel('Родинна роль')
ax.set_ylabel('Середній вік, років')
ax.set_xticks(x)
ax.set_xticklabels(roles)
ax.set_ylim(0, max(mean_ages_pivot.max()) + 10)
ax.legend(title='Рік')
ax.grid(axis='y', linestyle='--', alpha=0.5)

plt.tight_layout()
plt.show()

df_1778 = pd.read_csv('2.2.2_Структура родини Дунаєць_1778.xlsx - Total.csv')
df_1897 = pd.read_csv('2.1.1_Структура родини Дунаєць_1897.xlsx - Total.csv')

files_1897 = {
    'Козаки': '2.1.1_Структура родини Дунаєць_1897.xlsx - Cossacks.csv',
    'Селяни-власники': '2.1.1_Структура родини Дунаєць_1897.xlsx - Peasant-owner.csv',
    'Духовенство': '2.1.1_Структура родини Дунаєць_1897.xlsx - Dukhovnogo.csv'
}

files_1778 = {
    'Посполиті': '2.2.2_Структура родини Дунаєць_1778.xlsx - Посполитые+бездворные.csv',
    'Військові': '2.2.2_Структура родини Дунаєць_1778.xlsx - Военные.csv',
    'Духовенство': '2.2.2_Структура родини Дунаєць_1778.xlsx - Духовные.csv'
}

df_1778['Категорія'] = df_1778['Категорія'].ffill()
df_1897['Категорія'] = df_1897['Категорія'].ffill()

df_1778 = df_1778[df_1778['Категорія'].str.lower() != 'усього']
df_1897 = df_1897[df_1897['Категорія'].str.lower() != 'усього']

# Групування по категоріях та підрахунок загальної кількості родин
df_1778_grouped = df_1778.groupby('Категорія')['Кількість'].sum().reset_index()
df_1897_grouped = df_1897.groupby('Категорія')['Кількість'].sum().reset_index()

# Розрахунок відсотків для кожної категорії
df_1778_grouped['%'] = (df_1778_grouped['Кількість'] / df_1778_grouped['Кількість'].sum()) * 100
df_1897_grouped['%'] = (df_1897_grouped['Кількість'] / df_1897_grouped['Кількість'].sum()) * 100

category_order = [
    'Самотні особи',
    'Безструктурні',
    'Нуклеарні',
    'Розширені',
    'Мультифокальні'
]

category_colors = {
    'Самотні особи': '#92C5F9',
    'Безструктурні': '#FFE072',
    'Нуклеарні': '#B6A6E9',
    'Розширені': '#AFDC8F',
    'Мультифокальні': '#F89B78'
}

# Функція побудови кругової діаграми
def plot_pie(df, year, ax):
    filtered = df[df['%'] > 0].copy()
    filtered = filtered.set_index('Категорія').reindex(category_order).dropna().reset_index()
    
    colors = [category_colors[cat] for cat in filtered['Категорія']]

    wedges, texts, autotexts = ax.pie(
        filtered['%'],
        labels=filtered['Категорія'],
        autopct='%1.1f%%',
        startangle=140,
        colors=colors,
        textprops={'fontsize': 10}
    )
    ax.set_title(f'Розподіл родин за категоріями, {year}', fontsize=13)
    ax.legend(wedges, filtered['Категорія'], title='Категорії', loc='center left', bbox_to_anchor=(1, 0.6))

fig, axes = plt.subplots(1, 2, figsize=(16, 8))
plot_pie(df_1778_grouped, 1778, axes[0])
plot_pie(df_1897_grouped, 1897, axes[1])

plt.tight_layout()
plt.show()

def load_family_structure(path, stan_label):
    df = pd.read_csv(path)
    df['Стан'] = stan_label
    df['Категорія'] = df['Категорія'].ffill()
    df = df[df['Категорія'].str.lower() != 'усього']
    
    return df[['Стан', 'Категорія', 'Кількість']]

df_1778_parts = [load_family_structure(path, stan) for stan, path in files_1778.items()]
df_1778_combined = pd.concat(df_1778_parts, ignore_index=True)

# Агрегація: кількість родин по типах у межах кожного стану
df_1778_summary = df_1778_combined.groupby(['Стан', 'Категорія'])['Кількість'].sum().reset_index()

stan_totals = df_1778_summary.groupby('Стан')['Кількість'].transform('sum')
df_1778_summary['%'] = (df_1778_summary['Кількість'] / stan_totals) * 100

# Додаємо колонку 'Рік' для подальшого обʼєднання з 1897
df_1778_summary['Рік'] = 1778

df_1778_summary.head()

df_1897_parts = [load_family_structure(path, stan) for stan, path in files_1897.items()]
df_1897_combined = pd.concat(df_1897_parts, ignore_index=True)

df_1897_summary = df_1897_combined.groupby(['Стан', 'Категорія'])['Кількість'].sum().reset_index()

# Обчислюємо суму 'Кількість' для кожного стану
stan_totals = df_1897_summary.groupby('Стан')['Кількість'].transform('sum')

df_1897_summary['%'] = (df_1897_summary['Кількість'] / stan_totals) * 100

df_1897_summary['Рік'] = 1897

df_1897_summary.head()

category_order = ['Самотні особи', 'Безструктурні', 'Нуклеарні', 'Розширені', 'Мультифокальні']

year_colors = {
    1778: '#FFE072',
    1897: '#92C5F9'
}

df_combined_social_family = pd.concat([df_1778_summary, df_1897_summary], ignore_index=True)
df = df_combined_social_family[df_combined_social_family['Категорія'].isin(category_order)]

# Унікальні стани
unique_stans = df['Стан'].unique()
num_stans = len(unique_stans)

fig, axes = plt.subplots(2, (num_stans + 1) // 2, figsize=(14, 5 * (num_stans + 1) // 2))

axes = axes.flatten()

for i, stan in enumerate(unique_stans):
    ax = axes[i]
    data = df[df['Стан'] == stan]
    x = np.arange(len(category_order))
    width = 0.35

    # Значення для 1778 року: якщо категорія відсутня — підставляємо 0
    y_1778 = [
        data[(data['Категорія'] == cat) & (data['Рік'] == 1778)]['%'].values[0]
        if not data[(data['Категорія'] == cat) & (data['Рік'] == 1778)].empty else 0
        for cat in category_order
    ]
    
    # Значення для 1897 року (аналогічно)
    y_1897 = [
        data[(data['Категорія'] == cat) & (data['Рік'] == 1897)]['%'].values[0]
        if not data[(data['Категорія'] == cat) & (data['Рік'] == 1897)].empty else 0
        for cat in category_order
    ]

    bar_1778 = ax.bar(x - width/2, y_1778, width, color=year_colors[1778], label='1778')
    bar_1897 = ax.bar(x + width/2, y_1897, width, color=year_colors[1897], label='1897')


    ax.set_title(f'Стан: {stan}')
    ax.set_ylabel('% частка')
    ax.set_xticks(x)
    ax.set_xticklabels(category_order, rotation=30)
    ax.set_ylim(0, 100)

# Видаляємо зайві subplotи, якщо кількість станів непарна
for j in range(i + 1, len(axes)):
    fig.delaxes(axes[j])

# Додаємо загальну легенду для обох років (на основі одного з барів)
fig.legend(
    handles=[bar_1778[0], bar_1897[0]],
    labels=['1778', '1897'],
    title='Рік',
    loc='upper center',
    ncol=2,
    bbox_to_anchor=(1, 1.04)
)

fig.suptitle('Типи родин за станами у 1778 та 1897 роках', fontsize=16, y=1.02)

plt.tight_layout()
plt.show()

df_people_1778 = pd.read_csv("2.2_Дунаєць_1778.xlsx - База.csv", skiprows=3)
df_people_1897 = pd.read_csv("2.1_Дунаєць.xlsx - База людей.csv")

# Очистка 1778 року
df_1778 = df_people_1778.copy()
df_1778['Стать'] = None
df_1778.loc[df_1778['Чоловіки'].notna(), 'Стать'] = 'm'
df_1778.loc[df_1778['Жінки'].notna(), 'Стать'] = 'f'
df_1778_demo = df_1778[['Стать', 'Вік']].dropna()
df_1778_demo['Вік'] = pd.to_numeric(df_1778_demo['Вік'], errors='coerce')
df_1778_demo = df_1778_demo.dropna()

# Очистка 1897 року
df_1897_demo = df_people_1897[['Пол', 'Возраст']].rename(columns={'Пол': 'Стать', 'Возраст': 'Вік'})
df_1897_demo['Вік'] = pd.to_numeric(df_1897_demo['Вік'], errors='coerce')
df_1897_demo = df_1897_demo.dropna()

# Функція створення вікових груп
def assign_age_group(age):
    if age < 10:
        return '0-9'
    elif age < 20:
        return '10-19'
    elif age < 30:
        return '20-29'
    elif age < 40:
        return '30-39'
    elif age < 50:
        return '40-49'
    elif age < 60:
        return '50-59'
    elif age < 70:
        return '60-69'
    elif age < 80:
        return '70-79'
    elif age < 90:
        return '80-89'
    else:
        return '90-99'

df_1778_demo['Вікова група'] = df_1778_demo['Вік'].apply(assign_age_group)
df_1897_demo['Вікова група'] = df_1897_demo['Вік'].apply(assign_age_group)

def make_pyramid_data(df):
    return df.groupby(['Вікова група', 'Стать']).size().unstack(fill_value=0)

pyramid_1778 = make_pyramid_data(df_1778_demo)
pyramid_1897 = make_pyramid_data(df_1897_demo)

age_order = ['0-9', '10-19', '20-29', '30-39', '40-49', '50-59', '60-69', '70-79', '80-89', '90-99']
fig, axes = plt.subplots(1, 2, figsize=(14, 7), sharey=True)

for ax, (year, data) in zip(axes, [(1778, pyramid_1778), (1897, pyramid_1897)]):
    data = data.reindex(age_order).fillna(0)
    males = -data['m']
    females = data['f']

    ax.barh(age_order, males, color='#6795F2', label='Чоловіки', alpha=0.8)
    ax.barh(age_order, females, color='#F56C78', label='Жінки', alpha=0.8)
    ax.grid(True, axis='x', linestyle='--', alpha=0.7)
    ax.set_title(f'Статева структура {year}')
    ax.set_xlabel('Кількість')
    ax.set_ylabel('Вікова група')
    ax.set_xlim(-200, 200) 
    ax.legend()

plt.tight_layout()
plt.show()

# Обчислення коефіцієнта статі
def compute_sex_ratio(df):
    grouped = df.groupby(['Вікова група', 'Стать']).size().unstack(fill_value=0)
    grouped['Коефіцієнт'] = (grouped['m'] / grouped['f']) * 100
    return grouped['Коефіцієнт']

sex_ratio_1778 = compute_sex_ratio(df_1778_demo)
sex_ratio_1897 = compute_sex_ratio(df_1897_demo)

age_order = ['0-9', '10-19', '20-29', '30-39', '40-49', '50-59', '60-69', '70-79', '80-89', '90-99']

plt.figure(figsize=(10, 6))
plt.plot(age_order, sex_ratio_1778.reindex(age_order), marker='o', label='1778', color='#6795F2', alpha=0.8)
plt.plot(age_order, sex_ratio_1897.reindex(age_order), marker='o', label='1897', color='#F56C78', alpha=0.8)
plt.axhline(100, color='gray', linestyle='--', linewidth=1)

plt.title('Коефіцієнт статі (чоловіків на 100 жінок) у вікових групах')
plt.ylabel('Коефіцієнт (ч на 100 ж)')
plt.xlabel('Вікова група')
plt.ylim(0, 250)
plt.grid(True, linestyle='--', alpha=0.5)
plt.legend()
plt.tight_layout()
plt.show()

# Обчислення середнього віку по статі
mean_age_1778 = df_1778_demo.groupby('Стать')['Вік'].mean()
mean_age_1897 = df_1897_demo.groupby('Стать')['Вік'].mean()

# Створення загальної таблиці
mean_age_df = pd.DataFrame({
    '1778': mean_age_1778,
    '1897': mean_age_1897
}).T

fig, ax = plt.subplots(figsize=(8, 5))
bars = mean_age_df.plot(kind='bar', ax=ax, color=['#6795F2', '#F56C78'], alpha=0.7)

# Підписи над кожним стовпчиком
for container in bars.containers:
    bars.bar_label(container, fmt='%.1f', label_type='edge', fontsize=10)

ax.set_title('Середній вік чоловіків і жінок у 1778 та 1897 роках')
ax.set_ylabel('Середній вік')
ax.set_xlabel('Рік')
ax.set_xticks([0, 1])
ax.set_xticklabels(['1778', '1897'])
ax.grid(axis='y', linestyle='--', alpha=0.6)
ax.legend(title='Стать', labels=['Чоловіки', 'Жінки'])

plt.tight_layout()
plt.show()

	роль	вік	рік
0	husband	32.0	1897
1	wife	28.0	1897
2	daughter	5.0	1897
3	son	1.0	1897
4	father	70.0	1897

рік	1778	1897
роль
daughter	8.4	11.0
husband	47.1	46.6
son	12.2	16.4
wife	37.0	41.1

	Стан	Категорія	Кількість	%	Рік
0	Військові	Безструктурні	0	0.000000	1778
1	Військові	Мультифокальні	33	94.285714	1778
2	Військові	Нуклеарні	2	5.714286	1778
3	Військові	Розширені	0	0.000000	1778
4	Військові	Самотні особи	0	0.000000	1778

	Стан	Категорія	Кількість	%	Рік
0	Духовенство	Безструктурні	0	0.0	1897
1	Духовенство	Мультифокальні	0	0.0	1897
2	Духовенство	Нуклеарні	1	50.0	1897
3	Духовенство	Розширені	1	50.0	1897
4	Духовенство	Самотні особи	0	0.0	1897

Фінальний проєкт з предмету "Базова робота з даними"¶

ТЕМА 1: Вікова структура населення у селі Дунаєць між 1778 та 1897 роками¶

Підтема 1: Порівняння загального розподілу віку населення у 1778 та 1897 роках¶

Обробка даних перепису 1897 року¶

Обробка даних перепису 1778 року¶

Побудова порівняльної гістограми вікової структури (1778 vs 1897)¶

Підтема 2: Порівняння частки вікових груп населення¶

Створення категорій вікових груп¶

Групування населення за віковими категоріями і підрахунок часток¶

Побудова порівняльної діаграми частки вікових груп¶

Підтема 3: Середній вік осіб у родинних ролях у 1778 та 1897 роках¶

Завантаження та обробка даних (1778 і 1897 роки)¶

Уніфікація родинних ролей, обʼєднання таблиць та обчислення середнього віку¶

Побудова графіка: середній вік у родинних ролях¶

Висновок до графіка¶

ТЕМА 2: Зміни у структурі родин у селі Дунаєць між 1778 та 1897 роками¶

Підтема 1: Аналіз змін у структурі родин у селі Дунаєць між 1778 та 1897 роками¶

Очищення та підготовка даних¶

Побудова графіків¶

Висновки¶

Підтема 2: Аналіз змін у структурі родин у селі Дунаєць між 1778 та 1897 роками¶

Аналіз¶

Підготовка даних для побудови графіка¶

Побудова графіків для кожного стану¶

Висновки: як змінювалася структура родин у різних станах¶

ТЕМА 3: Зміни у статево-віковій структурі населення села Дунаєць у 1778 та 1897 роках¶

Очистка даних¶

Обробка даних¶

Підтема 1: Порівняння демографічних пірамід 1778 та 1897 років¶

Опис підтеми¶

Обробка даних¶

Візуалізація¶

Висновок¶

Підтема 2: Вікова та статева структура у селі Дунаєць 1778 та 1897 років¶

Опис підтеми¶

Обробка даних¶

Візуалізація даних¶

Опис графіка та виснокви¶

Підтема 3: Середній вік чоловіків і жінок у 1778 та 1897¶

Опис підтеми¶

Обробка даних¶

Візуалізація даних¶

Висновки:¶